LLM-Copyright信息移除组件说明_人工智能平台 PAI(PAI)-阿里云帮助中心

LLM-Copyright信息移除组件主要用于大语言模型（LLM）的文本数据预处理工作，用于删除文本中的Copyright信息，多用于去除代码文本中的头部Copyright注释。

支持的计算资源

去除文本中的Copyright信息或者注释信息，分为以下两个步骤：

首先检测文本中是否有符合正则表达式'/\\*[^*]*\\*+(?:[^/*][^*]*\\*+)*/'（注释字符）的字符串。
- 如果匹配到对应字符串，则检测字符串中是否包含copyright字段，如果包含，则删除整段字符串并返回；否则不做删除，直接返回。
- 如果匹配不到该正则表达式，则进入步骤2继续处理。
将文本用换行符分隔，按行遍历文本是否以//、#、--注释符号开头，一旦匹配到符合条件的某行，继续统计连续的注释行，直到注释符号终止，则遍历终止。最后删除文本中的连续注释片段并返回。

以上步骤均检测第一次匹配到的注释片段，即默认检测文本的头部，剩余部分不做处理。示例如下：

处理前

处理后

在Designer工作流页面添加LLM-Copyright信息移除（MaxCompute）组件，并在界面右侧配置相关参数：

参数类型	参数	默认值	描述
字段设置	选择目标处理列	无	选择要处理的列，支持选择多个列。
字段设置	设置输出表生命周期	28	正整数，单位为天。默认28天，28天后该组件产生的临时表被回收。
执行调优	每个实例的cpu数目	100	设定map task每个instance的CPU数目，取值范围为[50,800]。
	每个实例的memory大小，单位M	1024	设定map task每个instance的memory大小，单位为MB，取值范围为[256,12288]。
	每个实例处理的数据大小，单位M	256	设定map task每个instance的最大处理数据量，用户可以通过控制该变量，实现对map端输入的控制。单位为MB，取值范围为[1,Integer.MAX_VALUE]。